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ii 要 


基于 计算 机 的 问题 解决 测验 可 以 实时 记录 被 试探 索 环境 和 解决 问题 时 的 详细 行动 痕迹 ， 并 保存 为 过 


程 数据 。 首 先 介绍 了 过 程 数据 的 分 析 流程 ， 然 后 从 问题 解决 测验 入 手 ， 分 别 对 过 程 数 据 的 特征 抽取 和 能 力 估计 


建 模 两 方面 的 研究 进行 了 梳理 和 评价 。 


高 分 析 结 果 的 可 解释 性 ; 特征 提取 时 纳入 更 多 信 


提 


息 ; 实现 更 复杂 问题 情景 下 的 能 力 评估 ; 注重 方法 的 实用 性 ; 以 及 融合 与 借鉴 不 同 领 域 的 分 析 方 法 。 
关键 词 ”计算 机 问题 解决 测验 ,过程 数据 ,特征 抽取 ， 能 力 评估 模型 
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1 引言 


问题 解决 指 当 问题 解决 者 最 初 不 知道 解决 问 
题 的 方法 时 , 为 了 达到 特定 目标 而 进行 的 认 知 加 
工 过 程 (Mayer & Wittrock, 2006), 不 论 是 在 教育 
还 是 其 他 领域 , 问题 解决 的 能 力 都 非常 重要 。 为 
了 帮助 学 生 适 应 动态 变化 的 社会 ,培养 学 生 跨 学 
科 的 通用 问题 解决 能 力 逐 渐 受 到 国内 外 的 广泛 关 
注 ( 陆 环 ，2017)。 国 际 教育 技术 协会 (International 
Society for Technology in Education， 简 称 ISTE) 在 
2007 年 颁布 的 新 版 美国 国家 学 生 教育 技术 标准 》 
中 将 “批判 性 思维 、 问 题解 决 与 决策 ” 列 为 六 大 能 
力 素 质 维度 之 一 ( 王 永 锋 等 ,2007)。 我 国教 育 部 
在 2014 年 颁发 了 《关于 全 面 深化 课程 改革 落实 
立 德 树 人 根本 任务 的 意见 》, 首次 提出 要 研究 制 
订 学 生发 展 核心 素养 体系 ,并 提出 要 开展 跨 学 科 
主题 教育 教学 活动 ， 提 高 学 生 解 决 问题 能 

近年 来 ， 随 着 对 问题 解决 能 力 培养 的 日 益 关 
注 和 信息 技术 的 快速 发 展 , 越 来 越 多 的 国际 化 大 型 
评价 项 目 开 始 研发 基于 计算 机 的 问题 解决 能 力 测验 
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系统 。 如 隶属 于 经 济 合 作 与 发 展 组 织 (Organization 
for Economic 

的 国际 学 生 评价 项 目 (Programme for International 
Student Assessment，PISA) 于 2012 年 开展 了 基于 
计算 机 的 仿真 情景 问题 解决 测验 (OECD，2013)， 
于 2015 年 添加 了 人 机 互动 式 的 合作 问题 解决 能 
力 测 验 (OECD, 2017)。2013 年 ， 同 属 OECD 的 国 
际 成 人 能 力 评估 项 目 (Programme for the International 
Assessment of Adult Competencies, PIAAC) 测 量 了 
成 人 在 丰富 技术 环境 下 的 问题 解决 能 力 (problem- 
solving in technology-rich environments, PSTRE; 
Schleicher, 2008)。 由 思科 、 英 特 尔 和 微软 发 起 的 
“21 世纪 能 力 的 评价 与 教育 "(Assessment & Teaching 
of 21st Century Skills, ATC21S) 项 目 以 基于 计算 机 
的 人 人 交互 形式 测量 了 学 生 的 合作 问题 解决 能 
(Adams et al., 2015)。 美 国 国 家 教育 进步 技术 评估 
项 目 (National Assessment of Education Progress, 
NAEP) 的 工程 素养 评估 (Technology and Engineering 
Literacy assessments, TEL) 中 也 涉及 了 对 问题 解决 
能 力 的 测量 (PumpRepair; TEL, 2013)。 

相 比 于 传统 的 纸 笔 测验 , 基于 计算 机 的 问题 
解决 测验 可 以 利用 信息 技术 建构 真实 的 任务 情境 ， 
实现 被 试 与 测验 任务 的 动态 交互 ， 并 且 能 够 实时 
记录 被 试 在 模拟 情景 中 的 反应 过 程 ， 将 其 存储 为 
过 程 数据 (process data) 过程 数 据 由 具体 任务 和 问 
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题 所 诱发 ， 反 映 了 被 试 解决 问题 所 运用 的 能 力 和 
心智 过 程 ， 是 被 试 潜在 心理 活动 过 程 的 外 在 表现 
CEK, 2018)。 过 程 数 据 不 但 记录 了 被 试 的 反应 
结果 ,还 记载 了 被 试 的 解答 步骤 ， 相 比 于 传统 的 
结果 数据 可 以 更 多 地 揭示 被 试 的 思维 过 程 ; 过 程 
数据 蕴含 了 被 试 所 使 用 的 策略 以 及 所 犯错 误 等 解 
题 过 程 信息 ， 有 利于 区 分 低能 力 水 平 被 试 以 及 发 
现 不 同 的 错误 类 型 ,进而 诊断 错误 原因 ， 为 改进 
教学 提供 针对 性 的 建议 ; 过 程 数据 可 以 用 来 还 原 
解答 过 程 ,识别 猜测 行为 。 总 之 , 过程 数 据 对 于 了 
解 被 试 解 决 问题 的 行为 模式 有 重要 价值 。 
虽然 过 程 数据 蕴含 了 丰富 的 信息 ， 如 何 利 用 
和 理解 这 些 数据 是 或 待 解决 的 问题 (Mislevy， 
2019)。 未 经 计 分 的 过 程 数 据 常常 以 带 有 时 间 戳 的 
字符 串 行 形式 出 现 (Hao et al., 2015), 其 中 记录 的 
事件 可 以 是 “ 单 击 流 ” 这 种 鼠标 事件 ， 也 可 以 是 被 
试 为 完成 任务 所 展现 的 文字 或 图 像 。 这 种 字符 串 
行 难以 直接 使 用 传统 的 心理 测量 模型 进行 分 析 
首先 需要 从 中 提取 能 够 反映 潜在 特质 的 特征 。 然 
而 ， 过 程 数据 数量 庞大 ,结构 复杂 ， 难 以 快速 有 
效 地 从 中 筛选 出 有 用 的 信息 或 指标 ， 加 上 过 程 数 
据 的 时 序 性 、 多 维 性 等 特征 也 对 测量 建 模 提出 了 
PEAR FRE, 这 些 行为 表现 是 被 试 解决 问题 过 程 
中 的 真实 行为 序列 ， 所 有 行为 带 有 时 间 标 签 ， 在 
时 间 维 度 上 具有 连续 性 、 过 程 性 的 特点 , 使 用 传统 
心理 测量 模型 可 能 要 面临 指标 之 间 非 独立 的 问题 。 
纵 观 国内 外 这 一 领域 的 进展 ， 近 年 来 研究 者 
结合 问题 解决 能 力 测评 的 需要 ,对 于 如 何 从 复杂 
的 过 程 数据 中 获取 更 多 关于 能 力 估 计 的 信息 ， 以 
及 如 何 确 立 合 适 、 准 确 的 能 力 评 估 模 型 等 问题 进 
行 了 探讨 。 为 了 使 方法 学 研究 者 更 便捷 地 了 解 问 
题解 决 测验 中 过 程 数据 分 析 的 最 新 进展 ， 以 及 为 
实际 应 用 者 提供 分 析 流 程 与 方法 选用 的 参考 信息 ， 
本 文 首先 简要 介绍 了 过 程 数据 分 析 的 流程 ; 其 次 ， 
梳理 了 过 程 数 据 特 征 抽取 和 能 力 评估 模型 的 进展 


包括 PISA, ATC21S 在 内 的 大 型 计算 机 问题 解决 
测验 项 目 都 依托 “证 据 中 心 的 设计 ”(Evidence- 
centered Design, ECD; Mislevy et al., 2006) 理 论 为 
整体 设计 模型 。 基于 ECD 的 测验 开发 与 过 程 数据 
收集 、 分 析 过 程 可 以 归纳 为 图 1 所 示 的 5 个 步 又， 
其 中 “设计 任务 原型 ?和 “过 程 数据 的 分 析 ” 与 传统 
的 纸 笔 测 验 区 别 最 大 。von Davier (2017) 和 
Mislevy (2019) 等 都 对 过 程 数 据 的 分 析 流 程 提出 
了 自己 的 观点 。 


| 从 过 程 数据 中 抽取 测量 证 据 [ 


| 过程 数据 的 分 析 
利用 测量 模型 进行 基于 证 据 的 推论 | | 


图 1 基于 ECD 的 过 程 数 据 收集 与 分 析 流 程 


以 ECD 理论 为 依据 开发 的 计算 机 交互 式 测 
验 能 够 以 视频 流 、 音 频 流 和 模拟 日 志文 件 的 形式 
收集 被 试 在 问题 解决 过 程 中 丰富 的 行为 表现 数据 ， 
这 些 以 各 种 形式 记录 的 过 程 数据 也 可 以 统称 为 多 
模 态 数据 。 对 多 模 态 数据 进行 处 理 和 分 析 ， 可 以 
研究 和 理解 个 人 和 群体 层面 的 表现 (Amer et al., 
2014; Morency et al., 2010; Siddiquie et al., 2013). 
von Davier (2017) 在 多 模 态 层次 方法 (multimodal 
hierarchical approach; Khan, 2017; Khan et al., 
2013) 的 基础 上 总 结 了 一 种 适用 于 计算 机 交互 式 
测验 中 非 结 构 化 数据 的 分 析 框 架 一 一 计算 心理 测 


Et 


量 学 (Computational psychometrics)， 它 将 计算 机 


情况 ,并 在 此 基础 上 总 结对 比 了 不 同方 法 的 适用 
情景 和 优 缺点 ; 最 后 , 结合 目前 过 程 数据 分 析 的 
发 展 趋势 ， 对 其 未 来 研究 方向 进行 了 展望 。 


2 过程 数据 的 分 析 流 程 


信息 技术 的 发 展 使 得 构建 复杂 的 计算 机 交互 
式 测验 成 为 可 能 ,这 也 激发 了 对 于 新 技术 环境 下 
测验 开发 与 表现 性 评定 的 指导 理论 的 需求 。 目 前 ， 


科学 领域 的 数据 驱动 的 研究 方法 (特别 是 机 器 学 
习 和 数据 挖掘 )、 随 机 过 程 理 论 和 理论 驱动 的 心理 
测量 学 相 整 合 ， 以 便 实时 测量 潜在 能 力 。 其 基本 
思想 如 图 2 所 示 : 首先 以 ECD 理论 为 原则 开发 项 
目 ， 进 行 测试 ， 并 将 多 模 态 数据 (过 程 数据 ) 与 传 
统 的 测验 项 目 数据 (结果 数据 ) 一 起 收集 ,测验 开 
发 与 数据 收集 程序 依赖 于 人 类 专家 系统 的 理论 输 
人 和 人， 是 一 个 自 上 而 下 的 过 程 ; 然后 使 用 数据 挖掘 
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(data mining，DM) 和 机 器 学 习 (machine learning, 
MD) 等 算法 对 多 模 态 数据 进行 特征 抽取 (Feature 
extraction) 和 表征 (Representations)， 如 果 确 定 了 
新 的 行为 表现 特征 ， 则 可 以 考虑 将 其 纳入 之 后 的 
心理 测量 模型 建构 中 (von Davier, 2017); 接 下 来 ， 
更 新 测量 模型 ， 并 采用 新 的 样本 重复 这 一 过 程 ， 


如 果 数 据 允 许 也 可 以 使 用 随机 过 程 模型 ， 循 环 以 
上 过 程 直到 测量 模型 稳定 。 
测量 模型 ` = 
+ 
IRT 随机 过 程 模型 贝 叶 斯 网 络 等 E 
x Cc 
2 特征 表征 测 | | 的 
8 RX 社会 网 络 语义 分 析 等 “| | 量 | | m 
所 B| | 验 
型 | | 开 
a 特征 提取 至 | | 发 
器 | 编辑 距离 法 本 体 模型 内 聚 法 等 | | 模 | | 与 
党 = — 
z 多 模 态 数据 | ik 
视频 聊天 音频 多 项 选择 题 等 ~ 


图 2 计算 心理 测量 学 (改编 自 von Davier, 2017) 


Mislevy (2019) 认 为 两 个 基本 的 分 析 过 程 有 
助 于 解释 和 建 模 过 程 数据 。 第 一 是 描述 给 定 行 为 
表现 中 的 证 据 ， 也 就 是 说 ， 从 复杂 多 样 的 过 程 数据 
中 提取 有 用 的 信息 (证 据 )， 这 类 似 于 人 类 评分 员 在 
评估 被 试 的 复杂 表现 时 其 大 脑 中 隐藏 的 过 程 。 除 
了 专家 指定 提取 规则 外 ,这 一 分 析 程 序 也 可 以 借助 
于 数据 挖掘 、 知 识 工 程 (knowledge engineering) 和 计 
算 语 言 学 (computational linguistics) 等 技术 完成 
(Bejar et al., 2016)。 第 二 是 测量 建 模 。 在 基于 计算 
机 的 测验 中 , 我 们 可 以 追踪 、 积 累 和 综合 行为 表 
现 过 程 中 的 证 据 ， 并 构建 目标 构 念 (construct) 的 操 
作 化 变量 。 这 些 行为 表现 特征 依赖 于 被 试 的 潜在 特 
征 , 它们 之 间 的 概率 关系 可 以 被 测量 模型 所 建构 。 

综合 以 上 观点 ， 对 于 计算 机 问题 解决 测验 中 
过 程 数据 的 分 析 包 含 了 两 个 主要 步骤: 从 过 程 数 
据 中 抽取 有 关 被 试 潜在 能 力 的 可 解释 信息 ， 以 及 
利用 抽取 的 信息 对 被 试 的 能 力 进行 估计 。 在 信息 
提取 阶段 , 分 别 有 依 赖 于 专家 的 自 上 而 下 的 方式 ， 
和 数据 驱动 的 自 下 而 上 的 方式 ; 而 在 能 力 佑 计 阶 
段 ， 可 以 采用 传统 的 心理 测量 学 模型 ， 若 数据 人 允 
VE, 也 可 以 选择 随机 过 程 模型 。 以 下 分 别 对 过 程 
数据 分 析 的 这 两 个 核心 步骤 一 一 特征 抽取 和 能 
评估 的 最 新 研究 进展 进行 梳理 与 总 结 。 


3 过程 数据 的 特征 抽取 方法 


目前 从 问题 解决 测验 过 程 数 据 中 抽取 关键 特 
征 或 有 意义 的 行为 指标 的 方法 主要 有 理论 驱动 
( 自 上 而 下 ) 和 数据 驱动 ( 自 下 而 上 ) 两 种 方式 。 

31 自 上 而 下 的 特征 抽取 方法 

自 上 而 下 的 特征 抽取 方法 指 以 问题 解决 的 概 
念 框架 为 基础 ,结合 具体 任务 ,， 由 专家 制定 从 过 
程 数据 中 寻找 与 问题 解决 构 念 元 素 相 关联 的 有 意 
义 行 为 模式 的 过 程 ， 具 体 过 程 如 图 3 所 示 : 专家 
组 在 测验 概念 框架 的 基础 上 ,针对 每 一 个 具体 的 
任务 情景 ,都 要 基于 构 念 内 涵 规 定 其 操作 性 定义 
以 及 在 任务 中 可 能 的 表现 水 平 , 并 以 此 制定 详细 
的 过 程 指标 提取 及 赋值 规则 。 一 般 需 组 织 多 位 专 
家 进行 行为 指标 的 设计 、 评 审 和 修改 的 迭代 工作 。 
在 确定 了 指标 提取 规则 后 ， 还 需要 将 其 转换 为 程 
序 算法 ， 以 实现 过 程 数 据 的 自动 化 抽取 。 为 了 确 
保 行为 指标 及 其 赋值 规则 的 有 效 性 ,在 指标 规则 
编写 阶段 需要 专家 组 非常 清晰 地 理解 被 试 在 作答 
过 程 中 的 认 知 过 程 ; 在 使 用 自动 化 程序 获得 被 试 
过 程 数据 的 指标 得 分 后 ， 还 应 组 织 领 域 专家 对 提 
取 的 指标 进行 打分 ， 并 对 评分 者 之 间 以 及 自动 化 
评分 结果 之 间 的 一 致 性 程度 进行 检验 ， 一 致 性 程 
度 可 以 采用 Kappa 系数 来 衡量 。 


概念 性 框架 : 
定义 构 念 元 素 的 内 涵 


构 念 元 素 操作 化 定义 


专家 组 制定 
界定 表现 水 平 


明确 指标 
提取 和 计 分 规则 


编写 计算 机 
自动 提取 程序 


专家 判定 有 效 性 | 


te Rae ee eae ee ee ee A 


图 3 自 上 而 下 的 特征 提取 流程 
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这 种 方式 是 目前 国际 大 型 问题 解决 测验 系统 
的 主流 评分 方式 。PISA 2012 问题 解决 测验 ， 
ATC21S 项 目的 合作 问题 解决 测验 (Adams et al., 
2015), NAEP-TEL 测验 (Shu et al., 2017) 等 都 采用 


(2016) 采 用 N-Gram 对 PIAAC 问题 解决 题目 中 的 
反应 序列 进行 表征 , 并 以 频率 - 道 序 列 (term frequency 
and inverse sequence frequency，TF-ISF) 加 权 ， 获 
得 每 种 操作 序列 的 特征 向 量 , 然后 以 被 试 作答 的 


了 专家 定义 的 过 程 数 据 指标 提取 与 计 分 方法 。 在 
其 它 一 些 涉 及 过 程 数 据 分 析 的 研究 中 ,研究 者 也 
针对 不 同 任务 制定 了 相应 的 过 程 数 据 编码 计 分 规 
则 (如 Harding et al., 2017; Rosen, 2017; Yuan et al., 
2019; Zoanetti, 2010; 圳 建 林 , 2018)。 然 而 ， 自 上 
而 下 的 方式 需要 专家 组 为 每 个 具体 任务 制定 特定 
的 评分 规则 ， 即 存在 任务 特异 性 问题 ， 且 成 本 很 高 。 
3.2” 自 下 而 上 的 特征 抽取 方法 

为 了 解决 理论 驱动 方法 的 任务 特异 性 问题 ， 
有 人 研究 者 尝试 采用 数据 驱动 的 方法 直接 从 过 程 数 
据 记 录 的 反应 序列 中 提取 信息 。 这 类 方式 目前 尚 
处 于 初步 探索 阶段 ， 并 没有 形成 统一 的 分 析 范 式 ， 
大 多 数 方法 都 是 借鉴 其 他 领域 的 现 有 算法 。 根 据 
这 些 方法 的 处 理 思想 和 来 源 领 域 , 可 以 将 自 下 而 
上 的 过 程 数据 特征 抽取 方法 分 为 以 下 三 类 : 将 反 
应 序列 类 比 于 字符 串 行 ， 借 用 自然 语言 处 理 
(Natural Language Processing， NLP) 技 术 由 反应 序 
列 建构 指标 的 方法 (He et al., 2021; He & von 
Davier, 2016); 使 用 降 维 算法 构造 反应 序列 的 低 
维 数 字 特 征 向 量 的 方法 (Tang, Wang, et al., 2021; 
Tang et al., 2020); 以 及 使 用 有 向 图 表征 反应 序列 ， 
并 使 用 网 络 指标 表 征 反 应 特征 的 方法 (Vista et al., 
2017; Zhu et al., 2016)。 
3.2.1 基于 自然 语言 处 理 的 特征 抽取 方法 

过 程 数 据 中 记录 的 行为 操作 序列 可 以 被 编码 
为 带 有 时 间 惟 的 字符 串 序列 (Hao et al., 2015)， 如 
“开始 ,操作 1, 操作 2， 操 作 3, 结束 ”因此 有 研 
究 者 提出 可 以 将 操作 序列 类 比 于 自然 语言 中 的 字 
ial, 使 用 NLP 领域 的 分 析 方 法 从 中 提取 信息 ， 目 
前 采用 的 技术 主要 有 N-Gram, 编辑 距离 (edit 
distance) 和 基于 最 大 公共 子 序 列 (Longest Common 
Subsequence, LCS) 的 指标 这 几 种 方法 。 

N-Gram 是 一 种 基于 统计 语言 模型 的 算法 ， 
它 对 文本 中 长 度 为 N 的 字符 序列 进行 提取 ， 并 对 
每 个 短 序列 进行 统计 ， 过 滤 掉 低频 序列 后 ， 形 成 
文本 的 向 量 特征 空间 ， 每 一 个 短 序 列 就 是 一 个 特 
征 向 量 维度 。 将 N-Gram 应 用 于 过 程 数 据 即 提取 
反应 序列 中 长 度 为 N 的 操作 序列 并 统计 ， 有 研究 
者 据 此 识别 关键 操作 序列 ， 如 He 和 von Davier 


最 终结 果 分 组 ， 使 用 卡 方 检 验 识别 出 与 成 功 解决 
问题 相关 的 关键 操作 序列 。 还 有 研究 者 为 提取 的 
N-Gram 赋予 认 知 含义 ， 以 进一步 用 于 测量 建 模 ， 
如 李 美 娟 (2020) 在 使 用 N-Gram 识别 出 关键 短 操 
作 序 列 的 基础 上 ,进一步 组 织 专家 为 其 赋予 认 知 
含义 ， 以 此 定义 合作 问题 解决 任务 中 的 行为 指 
fx. Zhan 和 Qiao (2020) 直 接 为 过 程 中 的 短 操作 序 
列 (N-Gram) 赋 予 认 知 含义 ， 用 于 诊断 分 类 分 析 。 
利用 N-Gram 提取 操作 短 序列 的 方法 计算 简单 
容易 实现 ， 还 可 以 经 由 专家 定义 构造 行为 指标 。 
然而 N-Gram 假设 第 N 个 操作 的 出 现 只 与 前 面 
N-1 个 操作 相关 ,与 其 它 任 何 操作 都 不 相关 ， 因 
此 该 方法 尽管 考虑 了 相 邻 的 操作 ， 仍 丢失 了 操作 
序列 中 的 大 部 分 顺序 信息 。 并 且 ， 采 用 这 种 方式 
得 到 的 特征 向 量 维度 数 等 于 所 有 N-Gram 的 总 数 ， 
当 可 采取 的 行为 数量 较 多 时 ， 维 度数 将 非常 庞 
大 。 此 外 , N-Gram 还 依赖 于 反应 序列 的 记录 方式 ， 
一 旦 反应 序列 的 编码 方式 发 生 改 变 , N-Gram 的 形 
式 与 数量 也 会 受到 影响 。 

对 于 已 知 最 佳 表现 对 应 的 操作 序列 的 测验 任 
务 ,很 容易 想到 直接 根据 被 试 的 作答 序列 与 最 佳 
作答 序列 的 相似 程度 来 评价 被 试 的 表现 ， 目 前 已 
有 研究 者 借用 NLP 中 的 编辑 距离 和 最 大 公共 子 序 
列 (LCS) 来 衡量 它们 之 间 的 相似 度 / 差 异 。 编 辑 距 
离 又 称 Levenshtein 距离 ， 指 两 个 字符 串 之 间 , 通 
过 替换 、 插 和 人 或 删除 字符 的 编辑 操作 ， 由 一 个 转 
成 另 一 个 所 需 的 最 少 编 辑 次 数 (Levenshtein， 
1966)。 两 个 字符 串 之 间 的 距离 越 大 ， 说 明 它 们 越 
不 同 。Zhan 等 (2015) 通 过 比较 被 试 在 NAEP-TEL 
泵 修理 任务 (PumpRepair; TEL，2013) 中 的 操作 序 
列 与 最 佳 序列 之 间 的 Levenshtein 距离 衡 量 了 他 们 
的 表现 。 最 大 公共 子 序列 指 两 个 给 定 字符 串 的 最 
长 公共 部 分 ， He 等 (2021) 基 于 被 试 反应 序列 和 最 
佳 反 应 序列 的 LCS 构建 了 评估 反应 序列 相似 性 
(Similarity) 和 有 效 性 (Efficiency) 的 指标 。 利 用 被 试 
的 作答 序列 与 最 佳 序列 的 距离 /相似 程度 来 构造 
行为 指标 的 方法 同样 计算 简单 、 容 易 实现 ， 并 且 
指标 含义 明确 ,易于 理解 。 然 而 这 些 指标 也 依赖 
于 编码 形式 ， 并 且 其 高 度 概括 性 会 导致 过 程 数据 
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中 很 多 有 用 信息 的 丢失 , 使 其 难以 区 分 不 同 的 行 
为 模式 。 
3.2.2 ”使 用 降 维 算法 获得 操作 序列 的 低 维 表征 

为 了 提取 反应 序列 中 的 所 有 过 程 信息 ， 有 研 
究 者 提出 使 用 降 维 算法 ， 如 自 编码 器 (autoencodem) 
MENRE AT (multidimensional scaling, MDS), 
获取 反应 序列 的 数字 特征 向 量 ， 所 提取 的 数字 向 
量 可 用 来 预测 被 试 的 表现 或 提高 能 力 估计 精度 。 

自 编 码 器 是 一 类 经 典 的 人 工 神 经 网 络 ， 常 用 
于 降 维 数据 降 品 .计算 机 可 视 化 等 (Goodfellow et 
al., 2016)。Tang 和 Wang 等 (2021) 使 用 序列 对 序列 
(sequence-to-sequence) 的 自 编码 方法 将 被 试 的 反 
应 序列 压缩 为 标准 的 数字 向 量 0 ， 他 们 认为 0 中 
包含 有 关 原 始 数据 的 复杂 信息 ， 可 以 将 其 类 比 为 
项 目 反 应 理论 (item response theory, IRT) 模 型 中 的 
潜在 能 力 ， 而 解码 器 则 可 以 被 类 比 于 项 目 反 应 函 
数 。 多 维 尺度 分 析 则 是 根据 研究 对 象 两 两 之 间 的 
距离 ,将 它们 投射 到 一 个 直观 的 低 维 向 量 空间 中 ， 
是 另 一 种 将 多 维 空间 的 研究 对 象 (样本 或 变量 ) 简 
化 到 低 维 空间 进行 定位 、 分 析 和 归 类 ,同时 又 保 
留 对 象 间 原 始 关系 的 数据 分 析 方 法 ( 骆 文 淑 ， 赵 和 守 
Æl, 2005). Tang 等 (2020) 构 造 了 一 个 计算 两 个 操 
作 序 列 之 间 不 相似 度 的 函数 ,然后 采用 MDS 分 析 
操作 序列 两 两 之 间 的 距离 ， 获 得 了 每 个 操作 序列 
的 低 维 向 量 表征 0 Tang 和 Wang 等 (2021) 和 Tang 
等 (2020) 的 研究 都 发 现 由 降 维 算法 获得 的 低 维 向 
量 9 ， 对 被 试 在 其 他 项 目 和 认 知 测验 上 表现 的 预 
测 准确 性 比 使 用 结果 变量 预测 时 更 高 。 

这 种 利用 降 维 算法 获取 操作 序列 的 低 维 数 字 
向 量 的 方法 , 不 依赖 于 先 验 知识 和 过 程 数据 的 编 
码 ， 获 取 的 低 维 向 量 9 包含 过 程 信息 ， 可 以 进 一 
步 被 用 于 对 反应 模式 进行 聚 类 、 可 视 化 以 及 预测 
被 试 的 未 来 表现 等 ， 因 而 可 以 作为 一 种 通用 的 特 
征 抽取 方法 。 然 而 ,这 种 方式 的 最 大 问题 是 难以 
解释 ， 低 维 表征 向 量 9 不 具备 明确 的 心理 学 含义 。 
3.2.3 ”借助 网 络 指标 描述 反应 过 程 特征 的 方法 

社会 网 络 分 析 (Social Network Analysis, SNA) 
可 以 通过 对 关系 数据 的 系统 分 析 来 考察 关系 结构 
及 其 网 络 的 特征 ( 徐 伟 等 ,2011)。 过 程 数据 中 记 
录 的 反应 序列 不 是 独立 活动 的 集合 ,它们 蕴含 了 


以 表征 个 体 的 操作 序列 也 可 表征 群体 的 反应 过 
程 。 如 Zhu 等 (2016) 根 据 每 位 被 试 在 NAEP-TEL 
泵 修理 任务 中 的 反应 序列 构造 了 表现 操作 之 间 相 
互 依存 关系 的 加 权 有 向 图 (Wasserman & Faust, 
1994). 而 Vista 等 (2017) 将 任务 状态 和 被 试 的 对 话 
事件 作为 网 络 节点 , 事件 之 间 的 先后 顺序 作为 连 
Z, 分 别 对 ATC21S 的 橄榄 油 (Olive OiD) 任 务 中 的 
高 能 力 组 和 低能 力 组 构造 了 被 试 群体 的 网 络 图 。 
可 以 用 来 刻画 反应 过 程 网 络 的 特征 指标 有 度 
(density) 、 中 心 化 (centralization) 、 描 述 局 部 模式 
寺 征 的 互惠 二 元 体 (reciprocity) 和 三 元 体 (triad census; 
Davis & Leinhardt, 1972; Wasserman & Faust, 
1994) 、 突 出 (prominence) 、 分 支 (branches) 、 集 群 
(clusters) 和 最 短路 径 (shortest paths; Vista et al., 
2017) 等 。 不 同 成 绩 / 能 力 的 被 试 /被 试 群体 的 反应 
过 程 网 络 指标 存在 差异 (Zhu et al., 2016; Vista et al., 
2017)， 对 被 试 表 现 有 一 定 的 预测 作用 。 

此 类 方法 的 特点 是 将 反应 序列 视 为 一 个 整体 
过 程 ， 而 不 是 关注 单个 事件 。 使 用 网 络 图 表征 反 
应 序列 可 以 直观 地 呈现 反应 模式 ， 进 而 可 以 使 用 
SNA 指标 描述 反应 过 程 的 特征 。 该 方法 面临 的 主 
要 挑战 之 一 是 数据 的 复杂 性 , 需要 大 量 的 数据 清 
理 与 预 处 理 。 另 一 方面 , 使 用 SNA 指标 描述 反应 
过 程 有 向 图 的 特征 时 ， 只 能 获取 网 络 的 结构 特征 ， 
丢失 了 反应 顺序 信息 ， 而 且 无 法 捕获 节点 的 内 容 
信息 ， 也 损失 了 具体 反应 类 型 的 信息 ， 难 以 用 来 
对 被 试 的 表现 水 平 进 行进 一 步 推 断 。 
33 ”特征 提取 方法 简 评 

综 上 所 述 , 采用 自 上 而 下 方式 定义 的 行为 指 
标 与 概念 框架 有 紧密 的 对 应 关系 ,具备 可 解释 性 
和 明确 的 得 分 ,可 以 如 传统 测验 中 的 题目 一 般 ， 
直接 利用 心理 测量 模型 分 析 ， 获 得 被 试 的 潜在 能 
力 估计 值 。 然 而 ， 此 类 指标 建构 方法 的 工作 量 巨 
大 。 特 别 的 , 在 复杂 任务 中 ,专家 可 能 遗漏 或 忽视 
未 知 的 、 以 往 未 被 关注 的 学 生 思维 过 程 ， 从 而 造 
成 信息 的 遗漏 和 损失 。 

数据 驱动 的 自 下 而 上 的 特征 抽取 方式 部 分 解 
决 了 专家 建立 评分 规则 的 任务 特异 性 问题 ， 所 提 
取 的 特征 可 用 于 探索 不 同 被 试 群体 的 行为 模式 特 
点 ， 预 测 被 试 在 未 来 的 表现 , 在 经 专家 定义 后 也 


被 试 在 解决 问题 时 候 的 活动 顺序 , 使 用 有 向 图 可 
以 直观 地 展现 反应 的 变化 过 程 ， 进 而 可 以 使 用 
SNA 指标 对 反应 过 程 的 特征 进行 描述 。 有 向 图 可 


可 被 用 来 进行 能 力 估计 ， 对 于 测试 和 任务 开发 以 
及 评分 规则 的 改进 方面 都 有 一 定价 值 。 然 而 ， 这 
类 方法 也 不 一 定 能 保留 过 程 数 据 中 所 有 的 信息 ， 
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且 所 获得 的 指标 与 所 测 心理 特质 之 间 的 关联 并 “4 ”过 程 数 据 能 力 评估 模型 

NEH? Kx Je Wa 4 思 相 将 问题 解 

奖 。 经 过 上 述 介绍 可 以 发 现 ,这 三 美方 法 在 信息 。 “要 构 建 它们 与 潜在 能 力 之 间 的 概率 关系 模型 以 
利用 上 各 在 在 _ 些 局 限 性 。 如 借用 NLP paei ”实现 对 能 力 的 估计 。 根 据 模型 是 否 利用 了 指标 2 
的 方法 依 闲 原 始 编 码 ， 且 指标 大 多 过 于 第 统 ， 售 。 问 的 顺序 关系 ， 以 及 能 否 获得 连续 可 解释 的 潜在 
自 损 兴 大 ， 其 中 编辑 中 离 和 基于 LCs 的 方法 仅 舌 。 能力 估计 值 ， 可 以 将 目前 利用 过 程 信息 估计 潜在 
用 于 存在 最 侍 解 决 方案 的 任务 情景 N-gram 方法 。“ 能力 的 方法 分 为 以 下 三 类 : 传统 心理 测量 模型 及 
也 仅 适 用 于 可 执行 操作 较 少 的 任务 ; 使 用 降 维 算 ARAR, MER, WAAG PROBL 
法 获取 的 反应 过 程 数字 表征 ,保留 了 整个 反应 序 。。 程 思想 的 测量 模型 。 

列 的 信息 ， 可 以 用 于 预测 分 析 ， 也 有 研究 提出 了 41 ROAR RR 

利用 此 类 过 程 信息 的 能 力 估计 模型 (Zhang et al., 由 专家 定义 获得 的 行为 指标 直接 对 应 于 测验 


2020), 但 此 类 方法 抽取 的 特征 缺乏 可 解释 性 。 最 概念 框架 中 的 构 念 元 素 , 可 以 类 比 于 传统 测验 中 


后 ,使 用 网 络 指标 描述 反应 过 程 特征 的 方法 可 以 。 的 题目 拟 合 测量 模型 。 针 对 多 维 的 测验 结构 ,可 


对 反应 过 程 可 视 化 ， 并且 用 于 探索 不 同 群 体 的 反 以 使 用 多 维 IRT 模型 和 诊断 分 类 模型 同时 估计 多 


应 模式 特点 ,但 该 类 方法 难以 捕获 具体 操作 信息 ， 个 维度 上 的 能 力 或 者 诊断 多 个 技能 的 掌握 程度 
且 抽 取 的 特征 无 法 直接 用 于 被 试 能 力 的 估计 。 因 (e.g., Hesse et al., 2015; Siddiq et al., 2017; Yuan et 
此 ,数据 驱动 的 特征 抽取 方法 同样 可 能 面临 信息 al, 2019; Zhan & Qiao, 2020); 若 测 验 以 小 组 形式 
遗漏 的 问题 ， 日 具有 可 解释 性 问题 , 利用 此 类 特 ”进行 , 还 可 以 拟 合 多 水 平 模型 (Wilson et al., 
征 进行 能 力 估计 的 研究 非常 少 , 因此 纯粹 数据 驱 ”2017)。 除 了 直接 采用 现 有 的 心理 测量 模型 进行 分 
动 的 特征 抽取 方法 尚未 直接 应 用 于 大 规模 标准 化 。 析 , 也 有 研究 者 根据 过 程 数据 的 特点 对 传统 测量 
测试 的 能 力 评估 中 。 各 种 特征 抽取 方法 的 特点 可 ”模型 或 其 评估 步 怠 进行 了 拓展 ( 李 美 娟 等 ，2020; 
以 归纳 如 表 1。 Liu et al., 2018; Zhang et al., 2020)。 


表 1 基于 计算 机 的 问题 解决 测验 过 程 数 据 的 特征 抽取 方法 总 结 


类 型 ”算法 。 适用 情景 分 析 目 的 后 续 分 析 优势 不 中 
专家 制定 所 有 类 型 的 构建 指标 提取 和 计 分 规则 用 于 能 力 估计 具有 理论 依 成 本 高 ; 信息 
5 HE ”评分 或 指 任务 据 , AEREE, a 
c 而 下 标 构建 规 适用 于 传统 测 
= M 量 模型 分 析 
© N-Gram 。 可 执行 操作 较 构建 行为 指标 , 获得 反应 识别 关键 操作 序列 ; 用 指标 简单 , 易 指标 笼统 ; W 
少 的 任务 。 序列 特征 向 量 于 能 力 估计 于 理解 漏 顺序 信息 ; 
基于 “编辑 距离 存在 最 佳 解决 构建 一 个 反映 表现 水 平 的 “完善 评分 规则 s... 
NLP 路 径 的 任务 。 指标 
£ P LCS 存在 最 佳 解决 以 跨 任务 概括 的 方式 表征 比较 不 同 笠 体 问题 解决 
的 指标 ”路径 的 任务 解决 问题 的 策略 特点 。 策略 的 特点 
A AB ”所 有 类 型 的 将 反应 序列 用 数字 特征 向 预测 考生 的 最 终 反应 ， 信 息 抽 到 全 面 ， 缺 乏 可 解释 性 
而 上 PEE Mps fS 量 表征 ,以 提取 反应 序列 以 及 在 其 他 项 目 和 各 种 
算法 中 的 全 部 信息 认 知 特征 上 的 表现 ; 用 
来 提高 能 力 估计 精度 
社会 网 络 所 有 类 型 的 可 视 化 反应 过 程 , 提取 反 预测 表现 ; 分 析 高 低 组 可 视 化 。 ”” 预 处 理 程序 复 
x 分 析 E£ 应 过 程 网 络 图 的 特征 。 反应 模式 差异 杂 ; 难以 捕获 
网 络 ae E y 
分 析 网 络 节点 内 涵 ; 
无 法 直接 应 用 
于 能 力 估计 
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4.1.1 多 维 IRT 模型 否 出 现 转换 为 0-1 编码 ; 然后 以 产生 这 些 操作 序 


当 从 过 程 数 据 中 提取 的 行为 指标 对 应 于 问题 
解决 操作 性 概念 框架 中 的 多 个 元 素 / 子 维度 时 
(Hesse et al., 2015; OECD, 2013; Rosen, 2017), nf 
以 采用 多 维 IRT 模型 对 被 试 在 多 个 子 维度 上 的 表 
现 水 平 进行 估计 。 如 有 研究 采用 多 维 随机 系数 多 
项 logit 模型 (Multidimensional Random Coefficients 
Multinomial Logit Model, MRCMLM; Adams et al., 
1997) xt ATC21S 的 多 项 合作 问题 解决 测验 的 行为 
指标 进行 了 分 析 ， 获 得 了 被 试 小 组 在 多 个 维度 上 
的 能 力 估 计 值 ， 并 且 发 现 使 用 多 维 IRT 模型 的 拟 
合 效果 要 好 于 使 用 单 维 IRT 模型 对 几 个 维度 分 开 
估计 时 (Hesse et al., 2015; Siddiq et al., 2017)。 指 
标的 多 维 性 除了 对 应 于 目标 能 力 的 多 个 子 维度 外 ， 
还 可 以 对 应 于 合作 解决 问题 小 组 内 的 不 同 成 员 。 
Yuan 等 (2019) 在 分 析 一 个 以 两 人 小 组 为 测试 单元 
的 “人 人 交互 ?模式 的 合作 问题 解决 测验 时 ， 将 抽 
取 的 行为 指标 按照 实施 主体 区 分 为 被 试 个 体 的 和 
小 组 共同 的 , 使 用 项 目 内 多 维 的 MRCML 模型 分 
Br, 实现 了 对 个 体 的 表现 以 及 小 组 内 成 员 间 影响 
强度 的 估计 。 

4.1.2 ”多 水 平 (多 维 )IRT 模型 

问题 解决 测验 的 过 程 数 据 具 有 髓 套 结构 ， 过 
Rett tik BT BURT A, 在 一 些 合作 问题 解决 测 
验 中 , 被 试 个 体 又 舰 套 于 小 组 ,因此 适用 于 多 水 
平分 析 。Wilson 等 (2017) 在 两 水 平 Rasch 模型 
(Kamata & Cheong, 2007; Raudenbush et al., 2003) 
的 基础 上 加 入 了 小 组 水 平 s ， 以 过 程 指标 为 第 一 
水 平 、 被 试 个 体 为 第 二 水 平 、 合 作 小 组 为 第 三 水 
平 构造 了 一 个 三 水 平 的 Rasch 模型 ， 并 分 别 利用 
单 维和 多 维 的 Rasch 模型 、 以 及 多 水 平 的 单 维和 
多 维 Rasch 模型 对 ATC21S 项 目 “ 数 字 网 络 中 的 
学 习 - 信 息 通讯 技术 ”主题 下 的 合作 问题 解决 测验 
数据 进行 了 分 析 , 结果 表明 无 论 使 用 单 维 还 是 多 
HE, 考虑 了 组 效应 的 多 水 平 Rasch 模型 拟 合 都 更 好 。 
41.3 ”诊断 分 类 模型 

诊断 分 类 模型 (diagnostic classification models, 
DCM) 是 一 类 对 儿 个 细 粒 度 离 散 潜在 属性 和 观察 
到 的 项 目 反 应 之 间 的 关系 进行 建 模 的 限制 性 或 验 
证 性 潜在 类 别 心理 测量 模型 (von Davier & Lee, 
2019)。Zhan 和 Qiao (2020) 提 出 了 一 种 将 诊断 分 
类 融入 过 程 数 据 分 析 的 方法 : 将 反应 序列 中 的 相 
邻 短 操作 序列 (N-Gram) 视 为 过 程 项 目 ,并 以 其 是 


列 所 需 的 问题 解决 技能 为 潜在 属性 ， 给 过 程 项 目 
标定 Q 和 矩阵; 最 后 使 用 高 阶 诊断 分 类 模型 进行 分 
析 。 使 用 高 阶 DCM 分 析 过 程 数 据 可 以 在 评估 被 
试 连 续 的 潜在 问题 解决 能 力 的 同时 , 根据 被 试 的 
问题 解决 策略 对 其 进行 分 类 ,然而 使 用 N-Gram 
构建 二 分 编码 的 过 程 指标 ,丢失 了 反应 序列 的 整 
本 先后 顺序 以 及 N-Gram 的 频率 信息 ; 此 外 ,在 更 
加 复杂 的 任务 中 ,由 N-Gram 构建 的 过 程 项 目 数 
EEK, 其 Q 矩阵 标定 的 成 本 非常 高 。 

上 述 这 些 研 究 都 是 现 有 心理 测量 模型 在 分 析 过 
程 指标 上 的 新 尝试 , 没有 对 模型 本 身 提出 改进 , H. 
都 需要 专家 明确 定义 行为 指标 与 测量 构 念 间 的 关系 。 
413 ”改进 的 多 水 平 混合 IRT 模型 

为 了 在 考虑 过 程 数 据 敬 套 性 质 的 基础 上 , [Fj 
时 探讨 被 试 反 应 过 程 中 采取 的 不 同 策略 ，Liu 等 
(2018) 对 多 水 平 混合 项 目 反应 理论 模型 (Multilevel 
Mixture Item Response Theory, MMixIRT; Cho & 
Cohen，2010) 进 行 了 拓展 ， 提 出 适用 于 人 处理 过 程 
数据 的 改进 的 多 水 平 混合 IRT (modified MMixIRT, 
mMMixIRT) 模 型 。 该 方法 首先 穷 举 了 任务 中 的 所 
有 操作 ， 并 事先 判定 各 个 操作 的 正 误 。 在 过 程 水 
EE, 将 所 有 操作 的 累计 信息 ( 计 分 ) 作 为 特定 步 
又 的 过 程 数 据 ; 在 个 体 水 平 上 ,mMMixIRT 可 以 
HE X TPE A 以 决定 个 体 层 面 能 力 估计 所 用 
到 的 信息 ， 比 MMixIRT 模型 设 定 更 灵活 。 
mMMixIRT 不 仅 可 以 在 过 程 水 平分 析 反 应 策略 类 
别 特 征 ， 还 可 以 同时 估计 出 过 程 水 平和 个 体 水 平 
上 的 能 力 值 。 为 了 避免 mMMixIRT 模型 中 各 潜在 
类 别 内 能 力 正 态 分 布 的 前 提 假 设 难以 满足 的 问题 ， 
李 美 娟 等 (2020) 在 mMMixIRT 模型 基础 上 做 了 进 
一 步 的 修正 ,在 过 程 水 平 上 仅 区 分 策略 类 别 ， 不 
再 估计 过 程 能 力 。 这 种 穷 举 式 的 计 分 方式 使 得 
mMMixIRT 模型 利用 了 被 试 在 解答 过 程 中 每 一 步 
的 作答 数据 ,但 这 种 特殊 编码 方式 也 具有 任务 特 
异性 的 问题 ， 并且 mMMixIRT 模型 对 被 试 水 平 的 
能 力 估计 是 根据 被 试 在 最 后 一 步 上 的 作答 得 到 的 ， 
即 并 未 包含 过 程 中 的 顺序 信息 。 
4.1.5 ”两 步 条 件 期 望 方法 

为 了 在 对 潜在 特质 进行 估计 时 纳入 过 程 信息 
以 提高 估计 精度 , Zhang 等 (2020) 提 出 了 两 步 条 件 
期 望 方 法 (two-step conditional expectation)。 该 方 
法 的 实施 步骤 如 图 4 所 示 。 首 先 将 项 目 集 拆 分 成 
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被 试 在 第 i 个 项 目 子 集 的 反应 过 程 向 量 、 结 果 向 量 
和 由 结果 向 量 (基于 IRT 模型 ) 估 计 出 的 潜在 能 
值 .过 程 向 量 可 以 由 前 述 自 编码 和 MDS 等 方法 抽 
取 。 综合 了 被 试 在 项 目 集 已 上 的 结果 作答 和 反应 
过 程 的 新 的 能 力 估 计 值 bx, 的 构造 流程 如 下 : 
第 一 步 : WO, 对 Xs 的 回归 ， 获 得 Ty = 
E[ó, 1Xa]。 

第 二 步 : 做 名 Ht Ty 回归 ， 获得 Â = 
Tx] 


图 4 两 步 条 件 期 望 法 构造 潜在 特质 估计 值 6x, 的 流 
程 图 (Zhang et al., 2020) 


若 交 换 已 和 已 ， 同 理 可 得 名，。Zhang 等 
(2020) 以 MDS (Tang, Wang, et al., 2021) 作 为 过 程 
特征 抽取 方法 , 使 用 两 步 条 件 期 望 方法 对 PIAAC 
2012 的 14 个 PSTRE 项 目的 数据 进行 了 分 析 。 结 
果 发 现 , 相 比 于 单纯 基于 结果 作答 的 估计 值 ， 基 于 
过 程 的 潜在 特质 估计 值 与 类 似 任务 的 表现 有 更 高 
的 一 致 性 ; 并 且 , 在 达到 同样 信和 度 水 平时 ， 所 需 的 
项 目 更 少 。 然 而 这 种 方法 直接 利用 降 维 算法 抽取 过 
程 向 量 ， 所 以 在 信息 的 利用 上 具有 解释 性 问题 。 
42 ”随机 过 程 模型 

在 问题 解决 测验 或 类 似 平台 中 ,被 试 解决 任 
务 的 步骤 可 以 被 视 为 沿 着 离散 时 间 点 的 连续 反应 
过 程 ， 过 程 中 的 反应 序列 相互 依赖 (Bellman, 1957; 
Puterman，1994)。 因 此 可 以 采用 描述 随机 过 程 的 
概率 模型 对 前 后 依赖 的 过 程 指 标 进行 拟 合 ， 并 获 
得 每 个 时 刻 上 的 潜在 状态 水 平一 一 可 能 对 应 于 被 
试 随时 间 变 化 的 知识 掌握 状态 或 能 力 表 现 水 平 。 
常用 的 随机 过 程 分 析 方 法 主要 有 隐 马 尔 可 夫 模 型 
(Hidden Markov Model, HMM) 和 动态 贝 叶 斯 网 络 
(Dynamic Bayesian Network, DBN). 

4.2.1 ” 隐 马 尔 可 夫 模 型 
HMM 是 关于 时 序 的 概率 模型 描述 由 一 个 


序列 , 再 由 每 个 状态 生成 一 个 观测 而 产生 一 个 观 
测 随 机 序列 的 过 程 ( 李 航 , 2012)。HMM 已 经 被 用 
于 分 析 自 适应 同伴 辅导 系统 和 自 适 应 测试 中 的 过 
程 数 据 (Arieli-Attali et al., 2019; Bergner et al., 
2017)。HMM 还 可 以 被 用 来 拟 合 被 试 在 问题 解决 
测验 或 类 似 系统 中 的 观察 序列 ， 并 得 到 各 个 时 间 
点 上 的 潜在 状态 水 平 。Xiao 等 (2021) 使 用 HMM 
分 析 了 PIAAC 2012 两 个 问题 解决 项 目的 动作 序 
Bil, 识别 出 潜在 状态 和 状态 之 间 的 转换 ,结果 发 
现在 两 个 项 目 中 ,作答 正确 的 被 试 都 更 专注 于 任 
务 ， 且 更 经 常 使 用 有 效 的 工具 来 解决 问题 ， 而 作 
答 错 误 者 则 更 有 可 能 使 用 较 短 的 动作 序列 并 表现 
出 犹 驳 的 行为 。 由 此 可 以 看 出 ， 基 于 数据 驱动 的 
HMM 方法 可 以 帮助 研究 者 更 好 地 理解 被 试 在 复 
杂 问 题解 决 任务 中 表现 出 的 动作 序列 背后 的 行为 
模式 和 认 知 转换 。 
42.2 ”动态 贝 叶 斯 网 络 

动态 贝 叶 斯 网 络 (DBN) 是 原始 贝 叶 斯 网 络 的 

个 扩展 ， 用 于 建 模 包含 时 间 信 息 的 状态 转换 ， 
可 以 用 来 对 被 试 的 随机 反应 过 程 进 行 建 模 (Kiser 
et al., 2017; Reichenberg, 2018; Reye, 2004; Rowe 
& Lester, 2010). 图 5 展示 了 一 个 简单 的 有 3 个 时 
间 点 的 DBN 的 路 径 图 。DBN 有 两 个 基本 部 分 : 
一 部 分 是 分 别 对 应 于 潜在 能 力 和 观察 变量 的 圆 形 
MEW, 另 一 部 分 为 表示 变量 之 间 随 时 间 变 化 的 
依赖 结构 的 路 径 (箭头 ) (Levy & Mislevy, 2016). 
可 以 看 出 , HMM 是 DBN 的 一 个 特例 , DBN 相 比 于 
HMM 增加 了 从 t=-1 时 刻 的 作答 x ,| Bc A 
在 能 力 0, 的 路 径 .DBN 已 被 应 用 于 测验 和 学 习 分 
析 : Reye (2004) 论 证 了 如 何 用 DBN 框架 分 析 纵 向 
数据 ， 这 为 该 模型 在 智能 辅导 系统 (Reye，2004; 


T 


时 刻 1 时 刻 2 时 刻 3 


图 5 一 个 DBN 的 路 径 图 
(Levy & Mislevy, 2016, page 384) 
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VanLehn，2008) 和 基于 游戏 的 测评 (Iseli et al., 
2010) 中 分 析 被 试 的 学 习 或 能 力 改变 铺 平 了 道路 。 
Levy (2019) 结 合 DBN、 认 知 诊断 建 模 和 过 程 
数据 分 析 方 法 , 分 析 了 一 款 针对 有 理 数 加 法 的 教 
育 游 戏 Save Patch (Chung et al.，2010) 的 数据 。 
Save Patch 游戏 包含 23 个 难度 依次 递增 的 关卡 ， 
每 个 关卡 有 若干 种 观测 反应 类 型 ,每 种 反应 类 型 
被 指定 对 应 于 才干 种 潜在 技能 。Levy (2019) 使 用 
DBN 对 观测 序列 进行 分 析 , 得 到 了 每 名 被 试 在 整 
个 游戏 过 程 中 每 次 尝试 所 对 应 的 各 个 潜在 技能 的 
掌握 程度 或 对 错误 观念 的 持 有 程度 等 结果 。 
DBN 可 以 利用 不 同 模式 的 反应 序列 信息 ， 保 
持 反应 序列 的 序列 结构 ; 使 用 潜在 状态 对 不 同 的 
潜在 特质 和 技能 建 模 ， 从 而 实现 认 知 诊断 。 无 论 
HMM 还 是 DBN, 分 析 得 到 的 都 是 随 着 过 程 变 化 
的 离散 的 知识 掌握 状态 或 能 力 状态 。 然 而 ， 有 别 
于 智能 辅导 测验 的 是 , 在 心理 测验 中 ,研究 者 一 
般 想 要 得 到 的 是 被 试 稳定 、 连 续 的 能 力 估计 值 。 
这 些 条 件 限 制 了 DBN 在 现代 评估 环境 下 利用 反 
应 过 程 数 据 对 被 试 潜在 能 力 评估 的 应 用 。 
43 ”结合 随机 过 程 思想 的 测量 模型 
被 试 在 问题 解决 测验 中 的 反应 过 程 部 分 处 于 
被 试 的 控制 之 下 ， 即 被 试 决定 在 特定 状态 下 采取 
什么 步 又 ， 因 此 , 在 给 定 潜在 能 力 的 条 件 下 ,每 
个 被 试 的 反应 过 程 都 可 以 被 视 为 一 个 具有 条 件 
阶 马尔 可 夫 特 性 的 离散 时 间 的 随机 过 程 (Shu et al., 
2017)。 为 了 在 建 模 时 保留 反应 过 程 指标 间 的 顺序 
关系 ,同时 从 中 获得 连续 的 潜在 能 力 估计 值 ， 有 
研究 者 提出 了 结合 随机 过 程 思想 的 测量 模型 。 
4.3.1 马尔 可 夫 IRT 模型 
Shu 等 (2017) 提 出 了 以 潜在 能 力 为 条 件 ， 以 操 
作 转 移 ( 即 反应 序列 中 两 个 相 邻 的 操作 ) 为 观测 变 
量 的 Markov-IRT 模型 ,为 了 保留 操作 转移 的 频率 
言 息 ， 他 们 提出 了 多 级 计 分 和 两 级 计 分 两 种 计 分 
方式 。 如 在 两 级 计 分 框架 下 ,用 ax 表征 从 操作 j 
到 操作 k 的 操作 转移 ， 当 它 正 确 时 记 为 1， 错误 记 
为 0， 则 被 试 i 选 择 操 作 转 移 ax 的 概率 可 以 用 以 
下 公式 表示 : 


exp( Bj, + @,0;) 
l+exp (Bix + oO;) 
HP, By 代表 操作 转移 被 选择 的 倾向 性 ，Qj 被 
用 来 链接 转移 ax 和 潜在 特质 0, ,可 以 看 出 , 公 


(1) 


P(aix =1/0;) = 


式 (1) 具 有 两 参数 IRT (2PL-IRT) 模 型 的 形式 。 为 了 
在 纳入 低频 操作 转移 的 同时 确保 估计 的 准确 性 ， 
Shu 等 (2017) 还 在 Markov-IRT 模型 基础 上 提出 了 
高 阶 的 Markov-IRT 模型 ,通过 将 操作 转移 分 组 来 
降低 某 些 转移 发 生 频 率 过 低 造 成 的 数据 稀 朴 所 带 
来 的 影响 。 在 使 用 Markov-IRT 模型 进行 分 析 时 
以 所 有 可 能 的 操作 转移 构建 指标 ， 并 且 在 计 分 时 
考虑 各 个 操作 转移 的 重复 次 数 ， 充 分 利用 了 操作 和 
转移 空间 所 携带 的 信息 。 然 而 该 方法 的 分 析 对 象 为 
计 分 后 的 操作 转移 频率 矩阵， 并 未 保留 操作 转移 的 
先后 顺序 ; FFA, 直接 以 操作 转移 表征 反应 过 程 的 
做 法 具有 局 限 性 ， 如 在 某 些 任务 中 , 不 同 问题 状态 
下 ， 相 同 的 操作 转移 可 能 导致 完全 相反 的 结果 。 
4.3.2 ”连续 时 间 动 态 选 择 模 型 

为 了 在 分 析 中 同时 考虑 事件 历史 和 发 生 时 间 ， 
Chen (2020) 将 被 试 的 反应 过 程 看 作 有 标记 的 点 过 
程 ， 提 出 了 一 种 标记 点 过 程 的 参数 化 方法 ， 即 连 
续 时 间 动 态 选择 (continuous-time dynamic choice， 
CTDC) 模 型 。 在 CTDC 模型 中 , 对 下 一 时 刻 的 事 
件 类 型 j 的 选择 用 条 件 概率 密度 函数 (Conditional 
density functions) 建 模 ， 它 依赖 于 被 试 的 潜在 问题 
解决 能 力 6、 事件 历史 Fe 和 任务 难度 Bh. RA 
多 分 类 logit 模型 的 形式 : 
exp((A, + O) Vi (Fh) 
xP. + OM i(Fie)) 


其 中 S (Fy) 代表 对 于 任务 K， 可 以 在 时 刻 上 立即 
发 生 的 事件 类 型 集 ，Vi, (所,) 为 事件 类 型 j 的 有 效 
性 度量 ， 有 效 为 1, 无 效 为 0。 而 下 一 步 操 作 的 时 
间 戳 则 用 基础 强度 (Ground intensity) K ZUE $R, 
它 依 赖 于 被 试 的 行为 速度 特质 z 和 任务 特点 yk, 
有 具 有 指数 函数 的 形式 : 

Ay (tl Fast yk) = exp (7, +z) (3) 
问题 解决 能 力 0 和 行为 速度 = 这 两 个 潜在 特质 服 
从 二 元 正 态 分 布 。CTDC 模型 通过 对 事件 历史 信 
息 的 设 定 ， 可 以 基于 一 个 或 多 个 任务 上 的 过 程 数 
据 估 计 每 个 被 试 的 问题 解决 能 力 和 操作 速度 。 然 
而 ,该 模型 虽然 纳入 了 时 间 信 息 , 但 实际 上 对 潜 
在 能 力 与 反应 速度 是 分 开 建 模 的 , 仅 假设 二 者 服 
从 多 元 正 态 分 布 ; 此 外 ,这 种 方法 对 于 任务 特征 
和 反应 过 程 的 分 析 还 不 够 深入 一 一 每 个 任务 仅 有 
一 个 难度 参数 ,无 法 区 分 反应 过 程 中 每 种 事件 的 
独特 属性 。 
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433 ”马尔 可 夫 决 策 过 程 测量 模型 
马尔 可 夫 决 策 过 程 (Markov decision process, 
MDP) 是 一 个 基于 纵向 成 本 效益 分 析 的 不 确定 性 
决策 模型 (Puterman，1994), 它 包含 目标 、 动 机 、 
任务 理解 (信念 ) 和 问题 解决 能 力 这 四 个 要 素 。Lamar 
(2018) 探 讨 了 在 复杂 决策 问题 任务 中 , 将 MDP 用 
作 测 量 模型 由 过 程 数 据 中 所 记录 的 行动 和 采取 行 
动 时 的 问题 状态 来 推断 个 体 特征 的 方法 , 提出 了 马 
尔 可 夫 决 策 过 程 测量 模型 (MDP measurement model, 
MDP-MM)。 对 于 一 个 状态 集 为 S， 操 作 和 集 为 A 的 
任务 MDP-MM 描述 了 在 状态 s 下 被 试 j 选择 行 
z) a 的 条 件 概 率 (Lamar, 2018): 
p(a|s,B,)= exp(f,Q(s,a| 8;)) 
Doc e*p(B,Q(s,a'| B,)) 


其 中 p, 类 似 于 IRT 中 的 潜在 能 力 ， 它 服从 对 数 正 
SAM. Qal p 是 一 个 递归 函数 ， 代 表 了 行动 
的 价值 ， 包含 了 当前 行动 的 即时 奖励 (得 分 ) 和 之 
后 步骤 的 期 望 得 分 。 模 拟 研究 表明 , MDP-MM 能 
够 清楚 地 将 “高 能 力 - 低 动机 ”条 件 下 产生 的 数据 
集 与 “低能 力 - 高 动机 ?条 件 下 产生 的 数据 集 分 离 
开 来 。Lamar (2018) 还 用 MDP-MM 分 析 了 一 个 微 
生物 博弈 游戏 的 实际 数据 ， 其 能 力 估 计 值 与 后 测 
得 分 有 显著 正 相 关 。 不 过 , MDP-MM 限制 较 多 , 使 
用 时 要 根据 具体 任务 为 各 种 操作 和 /或 结果 定义 
合理 的 奖励 参数 (reward parameterization), 7 f% 
放 奖 励 参 数 自由 估计 ， 则 可 能 出 现 奖励 值 与 构 念 
方向 相反 , 使 得 8, 无 法 代表 被 试 能 力 。 
4.3.4 ”序列 反应 模型 

为 了 充分 利用 问题 解决 测验 过 程 数 据 对 被 试 
洪 在 能 力 水 平 进行 估计 ， 针 对 结构 良好 类 问题 情 
景 , Han 等 (2021) 提 出 用 问题 状态 序列 表征 完整 反 
应 过 程 的 信息 抽取 方式 ， 并 提出 了 可 以 对 整个 问 
题 状态 序列 进行 分 析 的 序列 反应 模型 (Sequential 
Response Model, SRM)。SRM 假设 被 试 在 下 一 时 
刻 选择 的 状态 5,, 与 他 们 的 潜在 能 力 9 和 当前 时 
刻 的 状态 S, AK, 该 模型 具有 多 分 类 logit 的 形式 : 
P(S; i+ = XSi = Xj,0.,4,R) = 

exp(A, , +I; , -6) 


Xj Xk Xx “i 


À It -6. 5 
ane exp( Xj NL a Xj ,Xn 0) ( ) 


(4) 


其 中 4, 是 状态 转移 参数 ,代表 了 由 状态 x; 转 
移 到 状态 x, 的 倾向 性 ; i ,是 一 个 指示 函数 ， 当 


状态 转移 xj 一 Xd 正确 时 取 1, 反之 取 -1; M, f 
表 当 前 状态 为 x; 的 情况 下 ,下 一 时 刻 所 有 可 能 的 
状态 集合 ，I x, MM, 都 是 关于 任务 本 身 的 预 设 
规则 , FAR ÆR Han 等 (2021) 通 过 对 PISA 2012 
问题 解决 测验 “车 票 ” 任 务 过 程 数 据 的 分 析 ， 验 证 
了 SRM 在 实际 数据 中 估计 被 试 潜在 能 力 及 题目 
状态 转移 参数 的 可 行 性 与 合理 性 。SRM 能 够 对 完 
整 的 反应 序列 进行 有 效 分 析 ， 得 到 的 题目 特征 参 
数 (状态 转移 参数 ) 可 以 为 深入 了 解 任务 特征 提供 
有 益 信 息 ， 得 到 的 被 试 能 力 估计 值 具 备 可 解释 性 ， 
有 助 于 了 解 不 同 反应 模式 的 能 力 水 平 。 不 过 , 合 
理应 用 SRM 进行 分 析 的 前 提 是 定义 良好 的 状态 
序列 ， 对 于 结构 不 良 问 题 中 问题 状态 与 问题 状态 
转移 的 定义 方式 仍 需 进一步 探讨 。 
4.3.5 ”结合 随机 过 程 思想 的 测量 模型 总 结 

除了 MDP-MM 外 ， 此 类 模型 主要 适用 于 操 
作 集 有 限 的 简单 测验 情景 , 需要 提前 穷 举 出 任务 
中 的 所 有 行为 ,并 (由 专家 ) 事 先 判 断 每 一 种 行为 
的 正确 性 (或 有 效 性 ), 而 MDP-MM 需要 提前 定义 
奖励 参数 ， 再 递归 计算 行动 价值 。Markov-IRT 中 
的 操作 转移 , CTDC 中 的 事件 类 型 , MDP-MM 中 的 
行动 和 SRM 中 的 状态 转移 都 是 对 行为 的 不 同 表 
征 方式 。 对 于 行为 正确 性 (或 有 效 性 ) 的 判断 在 
Markov-IRT 中 体现 在 计 分 上 ， 其 他 三 个 模型 中 以 
多 分 类 logit 模型 中 的 系数 表示 : 即 CTDC 中 的 
Vi (Fie) » MDP-MM 中 的 Q(salP) 和 SRM 中 的 
Ty x, o 它们 之 间 的 不 同体 现在 : Markov-IRT 仅 能 
保留 相 邻 操作 间 的 顺序 ， 而 其 他 三 个 模型 以 状态 
Rik, AAT ABA) ABT AA: 这 些 模型 中 
只 有 CTDC 利用 了 反应 时 间 , 但 CTDC 只 能 获得 
任务 的 整体 难度 参数 ， 而 Markov-IRT 和 SRM 可 
以 获得 每 种 行为 的 倾向 性 。 
44 对 当前 过 程 数 据 能 力 评 估 模 型 的 整体 评价 

综 上 所 述 , 要 想 利用 能 力 评估 模型 由 观测 指 
标 估计 潜在 能 力 水 平 , 合理 建构 指标 与 潜在 能 
之 间 对 应 关系 是 必 不 可 少 的 ， 如 “3 过 程 数 据 的 特 
征 抽取 方法 ”部 分 所 述 ,目前 这 一 过 程 仍 需 借助 
专家 经 验 (无 论 是 分 析 前 还 是 分 析 后 )。 不 同 种 类 评 
估 模 型 的 可 解释 性 依赖 于 它们 利用 的 指标 与 潜在 
结构 之 间 的 假设 强 弱 。 心 理 测量 模型 重点 关注 洪 
在 能 力 的 估计 ,除了 传统 测量 模型 的 直接 应 用 ， 
也 有 研究 者 对 现 有 模型 或 估计 步骤 提出 了 改进 。 
此 类 模型 使 用 的 过 程 指标 一 般 与 潜在 能 力 之 间 有 
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比较 强 的 对 应 关系 ,分析 结果 可 解释 性 强 (两 步 条 
件 期 望 法 除外 ), 但 受 限 于 局 部 独立 性 假设 , 分 析 
时 不 包含 指标 之 间 的 顺序 信息 。 随 机 过 程 模型 关 
注 对 反应 过 程 的 建 模 , 保留 了 反应 路 径 信息 ,但 
指标 与 潜在 结构 之 间 的 假设 较 弱 ， 有 时 先 采 用 数 
据 驱 动 模型 获得 潜在 状态 水 平 再 进行 理论 解释 
且 不 关注 稳定 而 连续 的 潜在 能 力 估计 值 。 在 使 用 
教育 和 心理 测验 对 被 试 的 知识 、 技 能 和 能 力 等 特 
质 进行 测量 时 ,最 主要 的 目的 是 得 到 被 试 潜在 特 
质 的 有 效 估计 值 。 从 这 一 点 来 看 ， 随 机 过 程 模型 
很 难 满 足 教 育 和 心理 测验 对 稳定 连续 的 能 力 特 质 
进行 有 效 估计 的 需要 。 最 后 ,结合 了 随机 过 程 思 
想 的 心理 测量 模型 兼 具 两 者 优点 ， 分 析 对 象 为 任 
务 中 的 行动 序列 ， 可 以 保留 行动 的 先后 顺序 ， 且 
由 专家 规定 与 能 力 方向 相同 的 指标 系数 或 计 分 方 
式 ， 具 有 一 定 可 解释 性 ， 因 而 可 以 利用 比较 完整 
的 反应 过 程 信息 获得 连续 的 潜在 能 力 估计 值 。 但 
此 类 模型 需要 穷 举 任务 中 的 所 有 行动 , 多 适用 于 
操作 集 有 限 的 简单 任务 。 因 此 ， 如 何 充分 利用 反 
应 过 程 信息 ， 更 准确 地 评估 被 试 的 潜在 能 力 , 同 
时 兼 具 分 析 结 果 的 科学 合理 和 可 解释 性 ,还 有 进 
一 步 研究 的 空间 。 各 个 模型 的 适用 情景 ， 优 缺点 
以 及 研究 中 使 用 的 实际 数据 集 和 分 析 软 件 工具 汇 
总 于 表 2. 


5 问题 与 展望 


为 了 利用 基于 计算 机 的 问题 解决 测验 获得 有 
效 的 能 力 估 计 值 ， 科 学 合理 地 分 析 过 程 数据 是 必 
不 可 少 的 。 对 于 过 程 数据 的 分 析 一 般 分 为 特征 
取 和 能 力 评估 模型 建构 这 两 部 分 , 本文 介 绍 了 这 
两 方面 最 新 的 方法 学 研究 ， 并 对 每 种 方法 的 适用 
情景 、 优 缺点 进行 了 总 结 ， 可 以 为 方法 学 研究 者 
快速 掌握 问题 解决 测验 中 过 程 数据 分 析 方 法 的 新 
进展 提供 参考 ， 以 促进 方法 学 上 的 创新 ， 还 可 以 
为 实际 应 用 者 在 分 析 数 据 时 选择 恰当 的 方法 提供 
参考 ， 对 后 续 研究 的 展开 有 指导 意义 。 目 前 关于 
如 何 提取 过 程 数 据 特征 和 利用 过 程 数据 评估 被 试 
的 潜在 能 力 这 一 议题 的 研究 仍 处 于 初始 阶段 ， 基 
于 前 文 总 结 ,存在 以 下 几 个 可 以 改进 的 方面 。 
51 “对 过 程 数据 进行 分 析 时 的 可 解释 性 问题 
在 对 过 程 数据 进行 分 析 的 各 个 阶段 保证 心理 
学 层面 的 可 解释 性 是 一 项 值得 关注 的 话题 ,对 保 
证 测验 结果 的 公正 性 、 有 效 性 和 客观 性 有 重要 意 


义 。 在 对 过 程 数据 进行 特征 提取 时 ， 利 用 自 下 而 
上 的 方式 可 以 直接 获得 反应 序列 或 关键 特征 的 数 
字 表 征 ， 然 而 这 些 指标 与 目标 心理 变量 间 的 关联 
机 制 却 相 对 难以 解释 和 理解 。 在 对 过 程 指标 建 模 
时 ,应 保证 估计 得 到 的 潜在 能 力 水 平 与 所 测量 的 
潜在 构 念 水 平 相 匹配 。 研 究 人 员 在 对 过 程 数据 进 
行 分 析 时 ,应 遵从 ECD 理论 “基于 证 据 的 推理 ” 理 
a, 在 提取 证 据 时 应 结合 心理 学 理论 ， 关注 证 据 
指标 的 心理 学 含义 ， 并 尝试 使 用 解释 性 强 的 算法 
进行 建 模 。 此 外 ， 阁 想 利用 过 程 数 据 深 入 探究 问 
题解 决 的 认 知 加 工 过 程 ， 仍 需要 测验 开发 者 、 领 
域 专家 和 心理 测量 专家 共同 参与 决定 。 对 于 错误 
策略 的 区 分 与 解释 ， 可 以 首先 由 自 下 而 上 的 方式 
提取 出 列 含 错误 信息 的 特征 ， 再 进行 聚 类 分 析 
不 同 的 特征 组 合 可 能 反映 了 不 同 的 策略 类 型 , 但 
聚 类 结果 仍 需 专家 解读 。 
5.2 “过程 数 据 的 特征 提取 应 纳入 更 多 信息 

在 保证 所 提取 特征 的 可 解释 性 的 同时 ， 应 该 
尽 可 能 多 地 从 过 程 数据 中 抽取 有 价值 的 信息 。 当 
前 对 于 过 程 数据 的 利用 大 多 基于 行为 表现 信息 
只 有 少 部 分 研究 利用 了 过 程 数 据 中 记录 的 时 间或 
语言 信息 (Chen，2020; 32 #ËJK, 2018), 未 来 研究 
应 考虑 如 何 将 这 些 行为 表现 以 外 的 多 模 态 信息 纳 
入 到 测量 模型 中 ,以 对 能 力 进行 更 准确 的 估计 。 
此 外 ,为 了 应 用 于 大 规模 标准 化 测验 , 无 论 哪 种 
信息 提取 方式 ,都 应 能 实现 信息 (指标 ) 的 自动 提 
取 与 评分 ， 对 于 多 模 态 数据 的 指标 自动 提取 与 合 
理 评分 也 有 具有 一 定 的 挑战 性 。 
53 ”实现 更 复杂 问题 情景 下 的 能 力 评估 

当前 的 随机 过 程 以 及 结合 了 随机 过 程 思想 的 
测量 模型 都 假设 在 给 定 被 试 潜在 能 力 的 条 件 下 
被 试 的 反应 过 程 具有 (条 件 ) 一 阶 马 尔 可 夫 性 质 。 这 
在 简单 的 测验 情境 中 是 成 立 的 ,但 是 在 一 些 复杂 
的 反馈 较 多 的 动态 问题 情境 中 ， 有 条 件 的 一 阶 马 
尔 可 夫 性 质 可 能 被 违背 .从 表 2“ 实 证 数据 集 ” 可 以 
看 出 ， 目 前 可 供 研 究 者 使 用 的 实证 数据 集 并 不 丰 
富 ,大 多 集中 于 PISA、PIAAC 和 ATC21S 这 三 个 
大 型 测验 项 目 。 特 别 地 ，PISA 问题 解决 测验 “车 
票 " 题 的 使 用 频率 较 高 ， 主 要 因为 这 道 题 的 题 型 
结构 简单 。 这 也 从 侧面 反映 出 当前 模型 在 分 析 复 
杂 任 务 时 的 局 限 性 。 因 此 ,在 提出 开发 更 多 更 复 
林 测 验 需 求 的 同时 , 方法 研究 者 也 应 提供 相应 的 
数据 分 析 处 理 方法 。 此 外 ， 过 程 性 测验 中 也 可 能 
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存在 影响 被 试 表 现 的 协 变量 ， 如 有 研究 表明 问题 


主题 的 测验 都 有 其 特殊 性 ， 如 问题 解决 测验 或 者 


解决 坚持 性 和 开放 性 等 因素 会 显著 影响 学 生 数 字 
化 环境 中 的 问题 解决 能 力 测 验 上 的 成 绩 ( 圳 建 林 
等 ,2016)。 未 来 研究 还 可 以 考虑 构建 适用 于 过 程 
数据 的 包含 协 变量 的 评估 模型 ， 以 进一步 提高 能 
力 估 计 精 度 。 
54 ”从 理论 研究 走向 实际 应 用 

对 于 过 程 数据 分 析 方 法 的 理论 研究 需要 实践 


学 科 素 养 测 验 更 加 关注 能 力 的 准确 估计 ， 而 有些 
测验 则 更 加 关注 反应 过 程 ， 如 批判 性 思维 测验 更 
加 关注 论证 的 过 程 ， 因 此 在 借鉴 不 同 领域 的 分 析 
方法 时 要 视 具 体 情 况 而 定 。 
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Abstract: Computer-based problem-solving tests can record respondents’ response processes in real time as 
they explore tasks and solve problems and save them as process data. We first introduce the analysis 
procedure of process data and then present a detailed description of the new advances in feature extraction 
methods and capability evaluation modeling commonly used for process data analysis with respect to 
problem-solving tests. Future research should pay attention to improving the interpretability of analysis 
results, incorporating more information in feature extraction, enabling capability evaluation modeling in 
more complex problem scenarios, focusing on the practicality of the methods, and integrating and drawing 
on analytical methods from different fields. 
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